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Анотація. Представлена програма, яка здійснює пошук п'яти видів плодів на зображеннях фруктових де- 
рев, класифікує їх та підраховує Їх кількості. При її створенні була врахована вимога можливості роботи як у 
фоновому режимі, так і в режимі реального часу та ідентифікувати потрібні об'єкти з достатньо високою швид- 
кістю. Програма також повинна мати можливість навчатися за допомогою доступних комп'ютерів (включаючи 
ноутбуки) і в межах розумного часу. 

При реалізації поставленої задачі у роботі були проаналізовані можливості декількох існуючих підходів 
до розпізнавання та ідентифікації візуальних об'єктів на основі використання згорткових нейронних мереж. Се- 
ред розглянутих мережних архітектур були В-СМХМ, Базі В-СММ, Базіег В-СММ, 55Ю, УО10 та деякі модифікації 
на їх основі. На підставі проведеного аналізу особливостей їх роботи для виконання поставленої задачі було взято 
архітектуру УОГЇО, яка дозволяє проводити аналіз візуальних об'єктів в реальному режимі часу з високою шви- 
дкістю та надійністю. 

Реалізація програмного продукту була здійснена шляхом модифікації архітектури У О1Оу3, реалізованої 
в Теп5огКіому 2.1. Розпізнавання об'єктів в цій архітектурі здійснюється з допомогою навченої мережі ДагКпеї- 
53, параметри якої знаходяться у вільному доступі. Модифікація мережі полягала у заміні її вихідного класифі- 
куючого шару. Навчання модифікованої таким чином мережі здійснено на основі технології Тгап5їег Іеагпіпо з 
використанням датасету Аягійтий Дагавеї. Було проведене дослідження особливостей процесу навчання мережі 
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за умови використання різних видів градієнтного спуску (стохастичного та зі значенням батчу 4 і 8), в результаті 
якого був обраний оптимальний варіант ваг навченої мережі для подальшого її використання. 

Тестування роботи модифікованої та навченої мережі показало, що система на її основі з високою надій- 
ністю розрізняє об'єкти відповідних класів різного розміру на зображенні (навіть зі значним їх маскуванням;) та 
підраховує їх кількість. Здатність програми розрізняти та підраховувати кількість окремих плодів на аналізова- 
ному зображенні може бути використана для візуальної оцінки врожайності плодових дерев. 


Ключові слова: розпізнавання образів, ідентифікація об'єктів, глибокі нейронні мережі, згорткові ней- 


ронні мережі, УОГОУ3, Рагкпе!-53, Аєтійтий Даїавеї. 


Вступ 

Виявлення та ідентифікація об'єктів - 
комп'ютерна технологія, пов'язана з 
комп'ютерним зором та обробкою зобра- 
жень, яка займається виявленням об'єктів 
певного класу на цифрових зображеннях та 
відео - останнім часом набуває все більш 
важливого значення завдяки своєму широ- 
кому застосуванню в пристроях різномані- 
тного призначення. До сфери виявлення 
об'єктів віднесене виконання багатьох фун- 
кціональних операцій, які включають у 
себе як виявлення наявних на зображенні 
об'єктів, Їх меж та країв, знаходження та 
ідентифікацію, у т. ч. 1 живих істот (зокрема 
- людини, її пози, виявлення обличчя та 
його ідентифікацію), так і загальний аналіз 
змісту спостережуваної сцени чи ситуації. 
Сьогодні без використання засобів такого 
розпізнавання просто неможливо уявити 
успішну діяльність у робототехніці, сфері 
моніторингу безпеки, автономному керу- 
ванні різноманітними транспортними засо- 
бами, спостереженні за станом довкілля та 
реагуванні на його зміни (у т. ч. 1 в надзви- 
чайних ситуаціях), аналізі місця знахо- 
дження та результатів роботи безпілотних 
літальних апаратів, різноманітних систем 
військового, медичного та іншого призна- 
чення. 

Більшість сучасних засобів та при- 
строїв розпізнавання об'єктів і як засіб для 
виділення особливостей із вхідних зобра- 
жень (або відео), і як саму мережу вияв- 
лення, класифікації та локалізації об'єктів 
використовують мережі глибокого нав- 
чання. Особливо важливого значення при 
вирішенні проблем розпізнавання набули 
глибокі нейронні згорткові мережі, які за- 
вдяки особливостям своєї будови та функ- 
ціонування дуже добре "витягують" ознаки 
із зображення. Саме завдяки цьому вони 
нині широко застосовуються для вирішення 
задач класифікації, розпізнавання, 
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сегментації та багатьох інших. 

При розробці таких систем значна 
увага приділяється як створенню нових ви- 
дів мереж, які забезпечують реалізацію ос- 
новних задач розпізнавання (до них відно- 
сяться насамперед підвищення точності ви- 
явлення об'єктів та швидкодії системи), так 
і зручності їх навчання та кінцевого засто- 
сування. Такий підхід зумовив розробку 
ефективних методів виявлення 1 розпізна- 
вання об'єктів на основі згорткових ней- 
ронних мереж, які загалом можна розділити 
на методи з використанням як двоступене- 
вого підходу, в якому процес розпізнавання 
можна охарактеризувати як почергове 
"грубе" 1 "тонке"? виявлення ознак об'єктів 
та їх класифікацію різними мережами, так і 
одноступеневого (де розпізнавання здійс- 
нюється однією мережею "в один крок"), 
які забезпечують ефективну роботу систем 
виявлення і розпізнавання об'єктів в реаль- 
ному часі з використанням цифрових фото- 
та відеоматеріалів |, 2|. 

Крім вдосконалення підходів до роз- 
пізнавання та створення складних архітек- 
тур нейронних мереж, велика увага приді- 
ляється також створенню 1 успішному вико- 
ристанню навчальних тестових наборів, 
(Санесп |3), КІТТІ |4|, ПпаєеМеє |35), 
РАЗСАІТ, МОС |6|, М5 СОСО |7|, Ореп 
Ппаєез УЗ |8| та інші), використання яких 
дозволило ефективно навчати глибокі ней- 
ронні мережі. 

Оскільки навчання складних багато- 
шарових мереж є дуже складним і вартіс- 
ним процесом і вимагає значних затрат як 
обчислювальних, так і часових ресурсів, 
для їх зменшення були розроблені і набули 
широкого практичного застосування ме- 
тоди використання вже навчених і апробо- 
ваних мереж на основі підходу їгапяї?ег Ісаг- 
піп 19). Застосування таких методів не ви- 
магає від користувача проведення повного 
циклу навчання моделі з необхідним при 
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цьому використанням великих датасетів та 
потужних обчислювальних систем і дає мо- 
жливість застосовувати їх на практиці з не- 
значними модифікаціями самої мережі та її 
навчання на невеликих датасетах і, що го- 
ловне - з використанням доступної ком- 
п'ютерної техніки. 

Такий стан справ привів до того, що 
на сьогодні в галузі комп'ютерного розпі- 
знавання візуальних об'єктів напрацьована 
низка підходів з використанням різних ней- 
ромережевих архітектур, застосування яких 
у кожному конкретному випадку надає ко- 
ристувачам як певні переваги, так і не 
вільне від деяких притаманних Їм недолі- 
ків. Тому при виборі потрібного інструме- 
нту для вирішення конкретної часткової за- 
дачі користувачеві потрібно враховувати 
усі притаманні йому нюанси. Не останню 
роль при цьому відіграє наявність потрібної 
моделі у вільному доступі, можливість Її 
модифікації під вирішення поставленої за- 
дачі без значних затрат, а також навчання 
створеного на її основі додатку з викорис- 
танням доступних ресурсів. 


Мета роботи та підходи до 

її вирішення 

Метою даної роботи було створити за- 
стосунок, який міг би, базуючись на можли- 
востях доступного персонального 
комп'ютера та наявних у вільному доступі 
нейромережевих технологій, здійснювати 
аналіз зображень певного виду з метою зна- 
ходження, класифікації та підрахунку окре- 
мих об'єктів, що знаходяться на них. Зок- 
рема, створена програма повинна надавати 
можливість проводити аналіз зображень 
плодових дерев певних видів (яблук, груш, 
лимонів, хурми, цукрового яблука) на наяв- 
ність на них відповідних плодів та підрахо- 
вувати їх кількість. Результати роботи про- 
грами повинні видаватись як у графічному 
форматі, де кожний знайдений плід має 
бути відмічений відповідним за його розмі- 
ром прямокутником з іменною поміткою та 
ймовірністю його ідентифікації, так і в тек- 
стовому, де вказані вид ідентифікованого 
об'єкта та сумарна кількість усіх знайдених 
на аналізованому зображенні плодів. 

Згідно поставленої задачі, для її реалі- 
зації потрібно було використати наявні у 
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вільному доступі інструменти, які для вирі- 
шення проблем розпізнавання та ідентифі- 
кації застосовують найефективніші на сьо- 
годні структури - глибокі нейронні мережі, 
зокрема згорткові нейронні мережі. 

Для вибору потрібної архітектури 
моделі були розглянуті деякі популярні 
нейромережеві підходи, які розроблені для 
виконання операцій щодо знаходження та 
класифікації візуальних об'єктів і володі- 
ють хорошою швидкодією. Як уже згадува- 
лося, за застосованим підходом до викори- 
стання глибоких згорткових мереж у прист- 
роях розпізнавання зображень, останні мо- 
жна розділити на дві категорії - дво- та од- 
ноступеневі. До перших (т. з. двоступене- 
вих детекторів) належать пристрої зі струк- 
турою В-СММ (Кедбіоп Сопуоіийоп Меигаї 
Мебуогк) (10) та її модифікацією Ба5і В- 
СММ (ГП 1) й Казіег В-СММ (12. Їдея В-СММ- 
підходу полягає у вибірковому виявленні 
набору блоків кандидатів у шукані об'єкти 
однією мережею, масштабування кожного з 
них до фіксованого розміру та передачі ін- 
шій навченій згортковій мережі для вилу- 
чення нею ознак виявлених кандидатів. 
Саме ж передбачення та розпізнавання 
здійснюється за допомогою лінійних класи- 
фікаторів з використанням виявлених на 
попередньому етапі ознак. Завдяки розділе- 
ному виявленню і класифікації таким мето- 
дом, досягається досить висока точність 
розпізнавання, у т. ч. і об'єктів дрібних ро- 
змірів, але суттєво зменшується швидкість 
самого процесу розпізнавання. Саме на збі- 
льшення швидкості розпізнавання направ- 
лені в основному модифікації і вдоскона- 
лення цього підходу - Ка58: В-СММ й Бабіег 
В-СММ. 

У одноступеневому підході повністю 
відмовляються від парадигми  розпізна- 
вання двоступеневого методу, суть якої - 
виявлення пропозиції для розпізнавання та 
її перевірка проводяться різними мере- 
жами; тут застосовують і для виявлення, і 
для розпізнавання об'єкта одну і ту ж саму 
згорткову мережу. Такий підхід дозволяє 
суттєво пришвидшити процес розпізна- 
вання завдяки розпізнаванню кандидатів на 
виявлення "за один раз однією й тією ж ме- 
режею?" при вказаному підході досягнута 
швидкість розпізнавання до 155 кадрів за 
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секунду. Однак, такий підхід зумовлює де- 
які труднощі саме в розпізнаванні, особ- 
ливо малорозмірних об'єктів. І тому саме в 
напрямку покращення розпізнавання мало- 
розмірних об'єктів відбувається вдоскона- 
лення цього підходу. 

Найпоширенішими представниками 
одноступеневих архітектур є УО1О (Хоп 
Опіу ІооКк Опсе) |13| та подібна до неї за 
принципом організації роботи 55 (5іпбіе 
5рог Дегесіог) (14), а також їх численні мо- 
дифікації. Такі модифікації представлені, 
зокрема, архітектурами ВКеаїте Ругатій 
МеїмогКк5 (ЕРМ), (15) які є різновидом ме- 
режі типу 551, що завдяки особливостям 
виявлення ознак краще ніж 55Ю розпізна- 
ють дрібні об'єкти, та ВейпаМеї | 16). 

Таким чином, основною особливістю 
одноступеневих підходів розпізнавання є 
те, що, на відміну від архітектур типу В- 
СМ, в яких виділення області зображення, 
яка потенційно може містити вартий уваги 
об'єкт, та її класифікація здійснюються різ- 
ними нейронними мережами і, відповідно, 
згорткова мережа тут кілька разів застосо- 
вується до різних регіонів, які аналізу- 
ються. У випадку У ОО, 55Р та їх модифі- 
кацій за знаходження об'єктів, визначення 
їх розміру та класу відповідає одна і та ж 
нейронна мережа. Плюсом також є те, що 
мережа переглядає все зображення відразу, 
враховує його вміст і при детектуванні, 1 
при розпізнаванні об'єкта, що дозволяє сут- 
тєво пришвидшити швидкість роботи всієї 
системи розпізнавання. До недоліків під- 
ходу можна віднести зниження точності ло- 
калізації виявлених об'єктів в порівнянні з 
двоступеневими детекторами, особливо ма- 
лорозмірних. Для усунення цього недоліку 
в роботах |17-19| було запропоновано удо- 
сконалення методу, яке значно покращило 
можливості розпізнавання саме таких 
об'єктів. 

На підставі проведеного аналізу для 
виконання поставленої задачі було обрано 
архітектуру ХОЇО, яка дозволяє проводити 
розпізнавання візуальних об'єктів в реаль- 
ному режимі часу, зокрема - її модифікацію 
УОГОУзЗ (71. Використання цієї архітек- 
тури дозволяє проводити розпізнавання з 
досить високим рівнем вірогідності, у т. ч.і 
в реальному часі зі швидкодією понад 30 
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кадрів на секунду. Точність розпізнавання і 
швидкість процесу змінюються в залежно- 
сті від розміру зображення, яке подається 
на вхід мережі. 


Особливості архітектури та органі- 
зація розпізнавання в ХОЇГ.ОуУЗ 
Основна ідея, покладена в основу ро- 
боти архітектури УОЇО - на основі відпо- 
відних ознак розбити досліджуване зобра- 
ження на 5 х5-сітку прямокутних комірок, 
виходячи з припущення, що кожна така ко- 
мірка є центром якогось об'єкту. Для кож- 
ної з цих комірок обчислюються п'ять пара- 
метрів: висота п та ширина у/ для трьох різ- 
них обмежуючих прямокутників, 
Соп/їдепсе (вказує на величину ймовірності 
того, що дана комірка є центром якогось 
об'єкта) та СІаз55 ргоРрабіїйу (вказує на ймо- 
вірність того, що дана комірка відноситься 
до певного класу). Використовуючи зна- 
чення цих параметрів, система проводить 
виділення та класифікацію об'єктів, прису- 
тніх на зображенні, яке аналізується. 
ХОГОУЗ - вдосконалена версія архі- 
тектури УОЇГО, основна особливість якої 
полягає в тому, що для розпізнавання тут 
використовуються три шкали, кожна з яких 
розрахована на виявлення об'єктів різного 
розміру. Загалом, для розпізнавання у 
УОГОУЗ використовується 106 шарів. 
Виділення ознак та побудова відпові- 
дних карт ознак для зображення у УОГОузЗ 
здійснюється з використанням загорткової 
мережі Рагкпеї-353 1201, на вхід якої пода- 
ються зображення певного розміру (зазви- 
чай 416х416 пікселів; однак, можуть пода- 
ватися і зображення інших розмірів). Відпо- 
відні карти ознак задаються шляхом змен- 
шення розмірів вхідного зображення у 32, 
16 та 8 разів і реєструються на виході 82, 94 
та 106 шарів мережі, відповідно (рис. 1) 


21). 
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Рис. 1. Архітектура УО1.Оу3 |21| 
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Особливістю мережі Рагкпеї є від- 
мова від використання в ній агрегувальних 
шарів з операцією тах-рооїїпе; замість 
цього застосовується операція згортки з ви- 
користанням фільтра, що містить лише оди- 
ниці, з кроком згортки, рівним 2. В резуль- 
таті такої згортки також отримується зобра- 
ження, зменшене в 2 рази, як 1 після опера- 
ції тах-рооїїпе; але у Рагкпеї отримується 
більш повна інформація на виході за раху- 
нок кращої 1 повнішої передачі інформації 
між початковими та більш глибокими ша- 
рами нейронної мережі. Зазначається, що 
завдяки цьому і навчання мережі відбува- 
ється ефективніше |22|. Крім того, такий 
підхід дозволяє ефективніше вирішувати 
також задачі знаходження об'єктів на різ- 
них рівнях зображення (іта?е-Іеугі, гедіоп- 
Ісуеї, ріхе!-Іеуеі) 231. 

Іншою особливістю Дагкпеї-53 є ви- 
користання залишкових шарів (Кезіанаї 
Біоск5), які за рахунок специфічних зв'язків 
(5кір соппесіїоп5) допомагають перенести 
дані з одного шару на інший, пропускаючи 
кілька проміжних |24). Використання таких 
зв'язків дозволяє враховувати у глибоких 
мережах слабкі сигнали нейронів, які без 
такої передачі швидко "обнулюються", че- 
рез що втрачаються різні дрібні деталі ана- 
лізу і збільшується величина його похибки. 

Отримана на виході мережі ДагКпеї- 
53 карта ознак надалі використовується для 
підрахунку значень параметрів ВВИ (Роип- 
аїпе Бох Пеіоні), ВВу/ (Боипаїпеє РБох улієйі), 
Соп/їдепсе та СІа55 Ргобабіййу для кожного 
її елементу та наступного використання цих 
параметрів для розпізнавання об'єктів. 

Подальша обробка зображення в 
УОПГОуУЗ здійснюється з використанням 
підходу Кеаїите Ругатіа Меїуогк |251, у ра- 
мках якого розпізнавання об'єктів відбува- 
ється не на одній результуючій карті ознак, 
а на декількох, з різними розмірами. 
Використання у розпізнаванні карт ознак 
трьох розмірів - 13х13 (для великих об'єк- 
тів), 26х26 (об'єктів середнього розміру) та 
52х52(дрібних об'єктів) дозволяє 
здійснювати надійне розпізнавання на 
зображенні об'єктів різних розмірів з уни- 
кненням втрати інформації про невеликі 
об'єкти. 

Після проходження однією з карт 
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ознак через розпізнавальний шар, до кож- 
ного її елемента застосовується "ядро ви- 
явлення" (аеіеспоп Кетпаї), на виході якого 
з'являється результуючий тензор, висота і 
ширина якого дорівнюють розміру карти 
ознак, а глибина рівна глибині "ядра 
виявлення". Глибина цього ядра обчислю- 
ється як добуток РФ Х(5 с), де Б - кількість 
обмежуючих прямокутників для кожного 
елемента (у нашому випадку їх 3), с - 
кількість класів, які ми розпізнаємо, 5 - 
кількість параметрів, які використовуються 
при розпізнаванні. До останніх відносяться: 
їх тат, - задають координати центра об'єкта; 
Її» та ї, - характеризують його розмір (ши- 
рину та висоту відповідно); ро- Ймовірність 
знаходження об'єкта в даному елементі. 
Таким чином, для кожного елемента карти 
ознак ми отримуємо інформацію про три 
обмежуючі прямокутники (по одному для 
трьох різних масштабів розпізнавання) для 
кожного елемента вхідної матриці, 
ймовірність знаходження центру об'єкта у 
даній комірці та ймовірність його належ- 
ності до певного класу об'єктів у вигляді 
результуючого тензора. 

Оскільки для кожного елемента усіх 
трьох карт ознак мережа знаходить по 3 
обмежуючі прямокутники, то загалом при 
розпізнаванні в сумі на виході ми маємо 
10647 обмежуючих прямокутників; не всі з 
них вказують на об'єкт, що розпізнається. 
Щоб відсіяти усі хибні та залишити лише 
потенційно правильні рішення, використо- 
вується метод Моп-тахітит 5ирргеззіоп 
(ХМ5) 26, суть якого полягає у встанов- 
ленні певного порогового значення 
(Пйгез5по!а) ймовірності знаходження шука- 
ного об'єкта у виділеному елементі та 
відкидання усіх прямокутників, для яких 
розраховане значення ро є меншими. Таким 
чином відсіюються усі точно хибні варі- 
анти, які мають малі значення ймовірності 
знаходження в них шуканого об'єкта. 

Далі вибираються усі прямокутники, 
що  пересікаються між собою. З них 
вибирається один із найбільшим значенням 
ро і вираховується значення подібності 
(іпіегзесійоп оуег ипіоп, Іо(/), яке дозволяє 
оцінити, наскільки подібні між собою два 
варіанти. Значення параметра Іо для двох 
обмежуючих прямокутників визначається 
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як результат ділення площі їх перетину на 
площу їх об'єднання: 


ІоП«(ВВІЛВВЗ/ВВІ уВВ2), 


де ВВІ - перший, а ВВ2 - другий обмежую- 
чий прямокутник. Отриманий результат по- 
рівнюють із попередньо встановленим по- 
роговим значенням; якщо він вищий від 
цього значення, то даний варіант відкида- 
ється. Проведення такої операції для кож- 
ного виявленого об'єкта дозволяє позбу- 
тися хибних визначень і правильно визна- 
чати виявлені об'єкти. 


Реалізація та навчання мережі 

При реалізації програми було викори- 
стано програмну імплементацію архітек- 
тури ХОГОуз3, виконану з використанням 
фреймворків Тепз5огЕЇом та Кега5 авторами 
271 1 яка є у вільному доступі. 

Для досягнення поставленої у роботі 
мети (розпізнавання об'єктів п'яти класів) 
була здійснена модифікація цієї архітек- 
тури шляхом заміни її вихідного шару, про- 
ведене навчання модифікованої таким чи- 
ном мережі з відповідним аналізом особли- 
востей самого процесу навчання та отрима- 
них при його здійсненні результатів, вибір 
на їх основі оптимальних значень ваг та те- 
стування роботи навченої мережі. 

При навчанні модифікованої мережі 
як початкові були використані наявні у ві- 
льному доступі ваги навченої мережі, отри- 
мані для Рагкпеї-53 |20). Навчання мережі 
проводилося з використанням набору 
Артійтий Рагазеї |23| із застосуванням 
трьох різних варіантів значень параметрів 
градієнтного спуску. Параметри навченої 
мережі, які показали найкращі результати в 
процесі навчання, були застосовані при те- 
стуванні її роботи. 

Як уже згадувалося, для проведення 
навчання нейронної мережі був обраний 
Аяртійтий Фагїазетї, який містить зображення 
п'яти видів фруктів - яблук, груш, лимонів, 
хурми та цукрових яблук. Загалом, у дата- 
сеті міститься 1500 зображень, по 300 зо- 
бражень для кожного класу; з них для кож- 
ного класу 240 зображень використовува- 
лися для проведення навчання мережі, а ре- 
шта 60 - для її тестування. 


Оскільки основним завданням 
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навчання мережі з архітектурою УОЇ1О є 
навчити її визначати, чи являється певна 
виділена комірка карти ознак центром шу- 
каного об'єкту 1, якщо це так, то який мож- 
ливий розмір цього об'єкту та до якого 
класу він відноситься, для його проведення 
у УОГО необхідний набір даних певного 
визначеного формату. У якому, поряд із 30- 
браженням, для кожного об'єкта датасету 
має бути надана відповідна анотація з інфо- 
рмацією про координати лівого верхнього 
та правого нижнього кутів обмежуючого 
прямокутника, а також вказаний клас, до 
якого відноситься цей об'єкт. 

У вигляді, в якому він надається кори- 
стувачам, Дягійтий РДагазеї містить безпосе- 
редньо самі зображення та текстові анотації 
до них, які представленні двома форматами 
- ХМІ, (містить абсолютні координати 
об'єктів та інформацію про їх класи) та 
ТХТ (містить нормалізовані відносні коор- 
динати об'єктів та індекси класів об'єктів). 
Однак, жоден з цих форматів опису не під- 
ходить для навчання нейронної мережі на 
базі архітектури УОГО, яке вимагає специ- 
фічного опису об'єкта у їхі-форматі. Тому 
перед її навчанням необхідно було підготу- 
вати набір даних у потрібному форматі. Для 
цього був використаний скрипт для конвер- 
тації ХМІ формату анотації у той, який ви- 
магає архітектура УОЇО. На виході даний 
скрипт формує наступні 3 файли: Мате5з.їхі 
- містить назви класів; Ттиаїіп.їхі - містить 
анотації для зображень, які будуть викори- 
стані для навчання; Тезі.їхі - містить анота- 
ції для зображень, які будуть використані 
для оцінки точності результату. 

Під час навчання мережі була викори- 
стана методика улагт-ир 51ерз |29|, суть якої 
полягає у тому, що, з метою уникнення не- 
стабільності процесу навчання, для почат- 
кової епохи навчання значення коефіцієнта 
швидкості навчання є дуже малою і посту- 
пово збільшується під час декількох насту- 
пних епох навчання (які називають уагт- 
ир-епохами) до заданого початкового зна- 
чення. 

Навчання модифікованої мережі про- 
водилося з використанням ПК з оператив- 
ною пам'яттю 8 СЬ ДрІОВ3 та процесором 
Пе! Соге 15-2500К 3.30СН2ХА зі встановле- 
ною ОС Обипіи 18.04.05 75. 
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Для навчання мережі використовува- 
лися такі гіперпараметри: 

- кількість епох - визначає кількість ци- 
клів навчання; 

-. Ваїсп зіге - вказує розмір батчу, який 
використовується на одному кроці на- 
вчання; 

- кількість уагт-ир епох - визначає кі- 
лькість циклів, на протязі яких коефі- 
цієнт навчання буде зростати від 0 до 
необхідного початкового значення; 

-- початковий (/еатпіпя мате) та кінцевий 
коефіцієнти навчання; 

- Усоге ійгезноїа - порогове значення 
для результатів передбачення наявно- 
сті центра об'єкта у певній комірці зо- 
браження, значення нижче якого не 
беруться до уваги; 

- ІоГ Шгезпоїіа - порогове значення для 
міри подібності об'єктів. 

Було проведено навчання отриманої 
мережі з використанням трьох варіантів за- 
стосування градієнтного спуску (5СР) - 
стохастичного та мінібатчевих зі значенням 
кількості предметів у батчі 4 та 8, відпо- 
відно. Результати проведеного навчання 
такі: 

1. При застосуванні 5СР (з такими зна- 
ченнями гіперпараметрів: кількість епох 
навчання - 20; кількість матгт-ир епох - 
4; Васі 8і7е - 1; значення початкового та 
кінцевого коефіцієнтів навчання - 1х 10 
та 1х1076; 5соге шкезпої - 0.3; Іо 
ійге5поїа - 0.5) - тривалість процесу 
навчання склала 22 год. 33 хв; отримане 
середнє значення точності визначення 
ТАР (теап ауега?е ргесізіоп) - 66.4090. 

2. У другому випадку - (кількість епох 
навчання - 10; кількість улагт-ир епох - 
2; Ваїсп зіге - 4) процес навчання зайняв 
9 год. 32 хв., азначення тАР-87.0190. 

3. Для третього (більшість обраних 
параметрів | була | ідентичною до 
попереднього, за виключенням Ваїсі 5іге 
- 8) - процес навчання зайняв 9 год. 12 
хв.; значення тАР рівне 82.98. 

Графіки зміни величини похибки, от- 
риманої в процесі навчання мережі у трьох 
описаних випадках, показані на рис. 2. 
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Рис. 2. Величина похибки навчання, отриманої при 
навчанні з різними значеннями гіперпарамертів нав- 
чання з використанням 5СЮР з розмірами 
Вас зігес:а- 1;6-4; в - 8 


Після кожної епохи навчання здійс- 
нювалася оцінка якості навчання мережі на 
тестовій частині датасету. Значення відпо- 
відних похибок, отримані в процесі тесту- 
вання мережі для вказаних випадків, пока- 
зані на рис. 3. 
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Рис. 3. Величина похибки, отриманої при тес- 
туванні з різними значеннями гіперпарамертів 


навчання з використанням 5СР з розмірами 
Вас 5зігес:а - 1; 6-4; в -8 
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Як видно з рис 3.а, для стохастичного 
ЗО (Вагсй 5іге- 1), найнижче значення по- 
хибки для тестових даних було отримане 
після виконання 6 епохи навчання, після 
чого значення похибки почало зростати. Це 
може свідчити про те, що мережа починає 
"перенавчатися". 

У випадку з Ваїсп 5іге, рівним 4 
(рис. 3,6), після шостої епохи наступні 
епохи навчання вносять досить незначні по- 
хибки у точність визначення. Подібний ха- 
рактер зміни похибки спостерігався і у ви- 
падку з ВаїсП 5іге, рівним 8 (рис. 3,8), з тією 
відмінністю, що навчання тут на початко- 
вих епохах відбувається більш плавно, а пі- 
сля шостої епохи зміна похибки є навіть 
дещо більшою, ніж у другому випадку. 

З умови вибору мінімального зна- 
чення середньої похибки розпізнавання 
були вибрані оптимальні значення ваг ме- 
режі - у нашому випадку вони відповідають 
вагам, отриманим при навчанні зі значен- 
нями ВаїсП зіге, рівними 4. Які й були вико- 
ристані у подальшій роботі з програмою 
при практичному розпізнаванні об'єктів на 
пред'явлених зображеннях. 


Робота програми 

Реалізована програма має графічний 
інтерфейс, побудований за допомогою біб- 
ліотеки ТКіпіег. Вигляд інтерфейсу показа- 
ний на рис. 4. 


- з и 


ль 


Егиїї соцпіег 


Не раїн: 


Споозе біє 
Ртосез5 ітаде 


Віев раї 


СКоо5е без 
Ргосеб5 біе5 


Заме гезиїів 


Рис. 4. Графічний інтерфейс програми 


Програма має два режими роботи - з 
безпосереднім виведенням результату та 
фоновий. 

У першому режимі роботи необхідно 
вибрати вхідне зображення, яке буде аналі- 
зуватися. Зробити це можна, натиснувши 
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на кнопку "СПообе Не" та вибравши зобра- 
ження у відповідному вікні, що відкриється 
(вихідне зображення може бути будь-якого 
розміру). Після вибору зображення, адреса 
вибраного файлу буде відображена у полі 
"ЕПе рашШ:" (рис. 4). Адресу для зчитування 
потрібного файлу можна у це поле ввести й 
самостійно. 

Для проведення розпізнавання, необ- 
хідно натиснути на кнопку "Ргосе88 таєе". 
У даному режимі роботи програми після за- 
кінчення розпізнавання буде отримане ре- 
зультуюче зображення, у якому біля кож- 
ного виявленого об'єкта, обмеженого квад- 
ратом, виведена Його назва та достовірність 
віднесення до даного класу. Програма та- 
кож виведе текстову інформацію про ре- 
зультат та аналізоване зображення, на 
якому будуть помічені розпізнані об'єкти. 

Приклад результату роботи програми 
у цьому режимі зображено на рис. 5. 


Рис. 5. Результат виконання програми 
у графічному режимі 


У другому режимі роботи програма 
може опрацьовувати декілька файлів у фо- 
новому режимі, без виведення кінцевого ре- 
зультату на екран. Для цього необхідно на- 
тиснути на кнопку "СПообе Біез8", після чого 
вибрати файли з потрібними зображеннями 
у вікні, що відкриється (вигляд вікна про- 
грами при виборі потрібних зображень для 
фонового аналізу показаний на рис. б). Ад- 
реси вибраних файлів будуть виведені у 
полі під надписом "Кіїе5 рай". Також ад- 
реси потрібних для аналізу файлів можна 
ввести у вище згадане поле, використову- 
ючи пробіл як розділювач для адрес. 

Для запуску процесу аналізу необхі- 
дно натиснути на кнопку "Ргосе585 Ніе5", пі- 
сля чого вибрані зображення будуть опра- 
цьовані, а результати будуть виведені у те- 
кстовому полі "Кезиіїв:". 
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Рис. 6. Вибір декількох файлів для 
фонового аналізу 


Результати фонового розпізнавання 
двох зображень з яблуками та грушами по- 
казані на рис. 7. Як бачимо, окрім результа- 
тів для кожного зображення, у текстовому 
полі "Вевизв:?" дається також загальний пі- 
дсумок кількості знайдених на обох зобра- 
женнях фруктів. 


/ Ргиїї соцпіег аг 
Кезиїйз: 


Ррріє : З 


Ейе раї 
сизгагдаарріє : 0 
1епопо: 0 


Споо5е є 
дчосасітоот| 00 |резратюв ої 0 
реаг : 0 


Ейез рай: 
ОуМазегу/ргодгат/т (|Еіїе: реаг 01.35ра 
арріє : 2 


Сроозебівз | сизгагдаарріє : 0 


Ргосеб5 без 


ІТосаї соцпс: 
арріє : 5 
сизсагдарріє : 0 
Щепоп : 0 
регзіштог : 0 
реаг : 2 


Заме гезийв 


Рис. 7. Результат роботи програми у фоновому 
режимі 


Для збереження результату необхідно 
натиснути на кнопку "Зауе гезиіія" та виб- 
рати директорію 1 назву файлу у вікні, що 
відкриється. Після чого програма збереже 
увесь текстовий вивід у файл, а також усі 
опрацьовані зображення у папку "Ргосез5ед 
ітаде8". 

Проведені тестування роботи про- 
грами показали, що вона з досить хорошою 
достовірністю визначає відповідні об'єкти 
в широкому інтервалі їх розмірів на зобра- 
женні навіть у випадку, коли їх зображення 
не повні або частково прикриті. Як можна 
бачити на рис. 3, у випадку розпізнавання 
яблук, програма добре справляється з пос- 
тавленою задачею, розпізнаючи з високою 
достовірністю (понад 8090) добре помітні 
яблука різних розмірів та зі значною долею 
достовірності (понад 5090) такі, велика час- 
тина яких або закрита листям, або має 
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суттєві розмитості чи незначні розміри. 
Аналогічні результати були отримані 
при розпізнаванні зображень, які містять 
всі п'ять видів фруктів, для яких було про- 
ведено навчання мережі. Крім того, про- 
грама працює дуже швидко, проводячи ана- 
ліз пред'явленого зображення за долі секу- 
нди, фактично в режимі реального часу. Що 
дозволяє використовувати даний застосу- 
нок для експресного підрахунку кількості 
плодів на зображеннях дерева. Таким чи- 
ном, програма дає можливість використо- 
вувати її для проведення приблизного екс- 
прес-аналізу врожаю. 
Ріїе: 
арріе 02.)р9 
арріє : 11 
сивгагдарріє : 0 
іетоп : 0 


регвіпттоп : 0 
реаг : 0 


Рис. 8. Результати розпізнавання зображення 
з яблуками 


Висновки 

В статті представлені реалізація та 
особливості застосування програми на ос- 
нові нейромережі, навченої розпізнавати 
фрукти п'яти класів. При її створенні за ос- 
нову було використано нейромережеву 
структуру УОЇОуУЗ в її імплементації в 
ТепБогПом» 2.1 з відповідною модифікацією 
вихідного шару. Донавчання створеної та- 
ким чином мережі здійснено на персональ- 
ному комп'ютері з загальнодоступними па- 
раметрами, застосовуючи технологію 
Тгапууег Іеагтпіпе з використанням значень 
ваг попередньо навченої мережі, наявних у 
вільному доступі, та датасету ДАягійтий 
Рашахеї. 

Проведені дослідження особливостей 
процесу навчання за умови використання 
градієнтного спуску з різними параметрами 
використання датасету (стохастичного та 
мінібатчевих з різними значеннями кілько- 
сті об'єктів у батчі) дозволили встановити 
вплив умов навчання на його проходження 
та обрати оптимальний варіант ваг навченої 
мережі для подальшого її використання. 
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Здійснене тестування роботи про- 
грами показало, що створений додаток з ви- 
сокою достовірністю розрізняє об'єкти різ- 
них розмірів на зображенні та підраховує їх 
кількість. 

Реалізовану програму можна викори- 
стовувати у будь-якому програмному сере- 
довищі, яке містить інтерпретатор мови 
Руфоп. Оскільки застосунок дає можли- 
вість ідентифікувати та підраховувати кіль- 
кість окремих фруктів на аналізованому з0- 
браженні, він може бути використаний для 
візуальної оцінки врожаю фруктових дерев. 

Дана програма може легко бути моди- 
фікована для розпізнавання об'єктів інших 
класів. Для цього потрібно підібрати відпо- 
відний начальний датасет та провести пере- 
навчання моделі. 
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